F5: Standardiserade variabler och normalfördelningen
Hittills har vi jämfört olika numeriska fördelningar
Vi har ställt frågor i stil med
Z-värdet (z-score) mäter avvikelsen från genomsnittet för en variabel – mätt i antalet standardavvikelser
Exempel
Vi pratade om standardavvikelser på F2 – här kommer en kort repetition
För en numerisk variabel \(y\) är standardavvikelsen \[ s_y = \sqrt{s_y^2} \]
\(s_y^2\) står för variansen, som vi räknar ut med \[ s_y^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} \]
Om vi hellre vill räkna ut standardavvikelsen i ett enda steg blir formeln \[ s_y = \sqrt{\cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1}} \]
Om värdet på en observation betecknas \(y\), och om \(\bar y\) och \(s\) betecknar genomsnittet och standardavvikelsen för variabeln \(y\), så är z-värdet \[ z = \cfrac{y - \bar{y}}{s} \]
För att räkna på z-värden behöver vi en numerisk fördelning (hur skulle vi räkna ut t.ex. standardavvikelse för en kategorisk fördelning?)
Vi gör samma beräkning för vinnaren i 200-meterslöpning för att bekräfta att z-värdet för den bästa löptiden är 2.02
Den genomsnittliga tiden var \(\bar{y} = 24.58\) sekunder och standardavvikelsen var \(s=0.654\) sekunder
Därför blir z-värdet för segertiden på 23.26 sekunder blir därför \[ z = \cfrac{y - \bar{y}}{s} = \cfrac{23.26 - 24.58}{0.654} = -2.02 \]
Notera att z-värdet vi räknade ut är negativt, vilket betyder att observationen är mindre än genomsnittet
När de handlar om tiden för ett lopp är 2.02 standardavvikelser mindre samma sak som 2.02 standardavvikelser bättre (då man vill springa snabbt)
Att översätta från en annan enhet (t.ex kg eller meter) till enheten standardavvikelser är som att översätta mellan vilka två enheter som helst
En mile är t.ex. \(\approx\) 1.6 kilometer – om avståndet mellan två punkter är 12 km, så är avståndet i miles \(12/1.6 = 7.5\)
Vi har sett hur vi kan räkna ut z-värdet för en observation, alltså det antalet standardavvikelser som observationen skiljer sig från genomsnittet
Vi kan också vilja besvara frågor som: hur långt måste du hoppa i längd för att hoppa två standardavvikelser över genomsnittet?
Det kan vi se genom att skriva om vår formel: \[ z = \cfrac{y - \bar{y}}{s} \implies y = \bar{y} + zs \]
Vi antar att \(\bar{y} = 6.17\) meter, \(s=0.247\) meter för längdhopp
Du måste då hoppa \(6.17 + 2 \cdot 0.247 = 6.664\) meter för att ditt hopp ska vara två standardavvikelser över genomsnittet
R kan vi visa att föregående slide stämmerFör varje observation av \(y\) subtraherar vi medelvärdet och delar med standardavvikelsen
Vi skriver ut våra värden för den nya variabeln z
Tolka: Vad säger dessa värden exempelvis om modellen Mazda RX4, som är den första bilen i vårt dataset?
Hittils har vi lärt oss att räkna ut z-värdet
Vi har också lärt oss att göra det omvända, dvs att räkna ut hur stort värdet på en variabel måste vara för att motsvara ett visst z-värde
Vi har sett att om vi omvandlar alla värden i en variabel \(y\) till z-värden så får vi en ny variabel med medelvärdet 0 och standardavvikelsen 1
Hur stor andel av hoppen är antingen minst två standardavvikelser större eller minst två standardavvikelser mindre än genomsnittet?
Från figuren: om hopplängderna är normalfördelade så är \(95\%\) av hoppen i intervallet mellan \(-2\) och \(2\) standardavvikelser från genomsnittet
Andelen hopp utanför detta intervall är alltså \(100\% - 95\% = 5\%\)
Om vi vill veta vad värdet i originalskalan behöver vara för att en bestämd andel av observationerna ska vara mindre/större: \[ \text{andel i procent} \implies \text{z-värde} \implies \text{y-värde} \]
Låt oss göra en uträkning av varje slag!
pnorm() när vi har ett z-värde, och vill veta hur stor andel av observationerna i en normalfördelning som har ett lägre z-värdeqnorm() för att se vilket z-värde som är större än en bestämd andel av observationerna i en normalfördelningNormalfördelningen är en förutsättning för beräkningarna i våra räkneexempel, men vi kan inte utan argument utgå från att en numerisk variabel är normalfördelad
När vi använder normalfördelningen för våra beräkningar måste vi alltså först undersöka om vår variabel verkligen är normalfördelad
Vi ska nu gå igenom några sätt att visa om en variabel är normalfördelad, eller åtminstone att den följer en fördelning som liknar en normalfördelning
Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj